SALAAD: Adaptación dispersa y de bajo rango con ADMM para inferencia de LLM
Descubre cómo SALAAD reduce el consumo de memoria en modelos de lenguaje grandes usando estructuras dispersas y de bajo rango, permitiendo un despliegue flexible sin reentrenamiento.